1
Evolusi Arsitektur MLLM: Dari Berbasis Visi ke Integrasi Multisensor
AI012Lesson 7
00:00

Evolusi Arsitektur MLLM

Evolusi Model Bahasa Besar Multimodal (MLLM) menandai pergeseran dari wadah khusus modality ke Ruang Representasi Terpadu, di mana sinyal non-teks (gambar, audio, 3D) diterjemahkan menjadi bahasa yang dipahami oleh LLM.

1. Dari Visi ke Multisensor

  • MLLM Awal:Berfokus terutama pada Transformator Visi (ViT) untuk tugas gambar-teks.
  • Arsitektur Modern:Integrasikan Audio (misalnya, HuBERT, Whisper) dan Awan Titik 3D (misalnya, Point-BERT) untuk mencapai kecerdasan lintas-modality sejati.

2. Jembatan Proyeksi

Untuk menghubungkan modality yang berbeda ke LLM, diperlukan jembatan matematis:

  • Proyeksi Linier:Pemetaan sederhana yang digunakan dalam model awal seperti MiniGPT-4.
    $$X_{llm} = W \cdot X_{modality} + b$$
  • MLP Berlapis Ganda:Pendekatan berlapis dua (misalnya, LLaVA-1.5) yang menawarkan penyesuaian unggul atas fitur kompleks melalui transformasi non-linier.
  • Penyempel/Pengabstrak:Alat canggih seperti Perceiver Resampler (Flamingo) atau Q-Former yang menyederhanakan data berdimensi tinggi menjadi token dengan panjang tetap.

3. Strategi Dekoding

  • Token Diskret:Mewakili output sebagai entri kamus tertentu (misalnya, VideoPoet).
  • Embedding Kontinu:Menggunakan sinyal "lembut" untuk membimbing generator turunan khusus (misalnya, NExT-GPT).
Aturan Proyeksi
Agar LLM dapat memproses suara atau objek 3D, sinyal harus diproyeksikan ke ruang semantik yang sudah ada di LLM agar diinterpretasikan sebagai "sinyal modality" bukan sebagai gangguan.
alignment_bridge.py
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>
Question 1
Which projection technique is generally considered superior to a simple Linear layer for complex modality alignment?
Token Dropping
Two-layer MLP or Resamplers (e.g., Q-Former)
Softmax Activation
Linear Projection
Question 2
What is the primary role of ImageBind or LanguageBind in this architecture?
To generate text from images
To compress video files
To create a Unified/Joint representation space for multiple modalities
To increase the LLM context window
Challenge: Designing an Any-to-Any System
Diagram the flow for an MLLM that takes an Audio input and generates a 3D model.
You are tasked with architecting a pipeline that allows an LLM to "listen" to an audio description and output a corresponding 3D object. Define the three critical steps in this pipeline.
Step 1
Select the correct encoder for the input signal.
Solution:
Use an Audio Encoder such as Whisper or HuBERT to transform the raw audio waves into feature vectors.
Step 2
Apply a Projection Layer.
Solution:
Pass the audio feature vectors through a Multi-layer MLP or a Resampler to align them with the LLM's internal semantic space (dimension matching).
Step 3
Generate and Decode the output.
Solution:
The LLM processes the aligned tokens and outputs "Modality Signals" (continuous embeddings or discrete tokens). These signals are then passed to a 3D-specific decoder (e.g., a 3D Diffusion model) to generate the final 3D object.